定义和分离癌症亚型对于促进个性化治疗方式和患者预后至关重要。由于我们深入了解,子类型的定义一直在经常重新校准。在此重新校准期间,研究人员通常依靠癌症数据的聚类来提供直观的视觉参考,以揭示亚型的内在特征。聚集的数据通常是OMICS数据,例如与基本生物学机制有很强相关性的转录组学。但是,尽管现有的研究显示出令人鼓舞的结果,但它们却遭受了与OMICS数据相关的问题:样本稀缺性和高维度。因此,现有方法通常会施加不切实际的假设来从数据中提取有用的特征,同时避免过度拟合虚假相关性。在本文中,我们建议利用最近的强生成模型量化量化自动编码器(VQ-VAE),以解决数据问题并提取信息的潜在特征,这些特征对于后续聚类的质量至关重要,仅保留与重建有关的信息相关的信息输入。 VQ-VAE不会施加严格的假设,因此其潜在特征是输入的更好表示,能够使用任何主流群集方法产生出色的聚类性能。在包括10种不同癌症的多个数据集上进行的广泛实验和医学分析表明,VQ-VAE聚类结果可以显着,稳健地改善对普遍的亚型系统的预后。
translated by 谷歌翻译